標簽【Policy Gradient】

【導語】：在深度強化學習第四篇中，講了Policy Gradient的理論。通過最終推導得到的公式，本文用PyTorch簡單實現以下，並且盡可能搞清楚torch.distribution的使用方法。代 ...